工具＆方法 | 教授教你如何用DID和DDD模型做政策评估

姚耀军数据Seminar 2021-06-03

收录于话题

89个

近年来，双重差分（Difference-in-Difference，DID）与三重差分模型（Difference-in- Difference-in-Difference，DDD）被广泛用于对项目或者公共政策实施效果的计量经济学评估。在评估中，政策处理组和对照组在样本分配上一般不具有完全随机性。非随机分配政策处理组和对照组的试验被称为自然试验（Natural trial），其重要特点是：处理组和对照组在实施处理之前可能存在系统性的差异。如果忽略这种初始差异，仅对处理组和对照组在实施处理之后的情况进行横向比较，那么所估计的处理效应很可能因混杂了初始差异的影响而存在偏差。Ashenfelter 和 Card（1985）首次引入 DID 模型来解决此问题，继而该模型的应用开始得到越来越多的重视。

DID 模型隐含了所谓的共同趋势假设：若处理组未得到处理，则与对照组发生相同的变化。处理组当然会得到处理，故这是一个反事实假设（Counterfactual hypothesis）。显然，如果处理组与对照组仅在是否接受处理上存在差异，在其他方面完全相同，那么此假定自然成立。但是，如此完美的对照组在自然实验中一般是不存在的。不过 DID 模型对对照组的要求并没有如此严格，其要求仅是：即使对照组与处理组存在其他方面的差异，而这些差异并不会使得对照组发生的变化与处理组在未得到处理情况下发生的变化是相异的，即满足共同趋势假设。然而，若共同趋势假设被违背，则需引入新的解释变量对 DID 模型进行拓展，以控制趋势差异的影响，否则处理效应就会因混杂了趋势差异的影响而存在偏差。但是，引入新的解释变量这一策略并不总是可行。此时，作为一种替代性策略，可以利用 DDD 模型，通过引入新的对照组来控制趋势差异对处理效应识别的干扰。

1. 双重差分模型

我们假设浙江省政府仅在杭州、嘉兴与湖州（简称杭嘉湖）三个地区的各乡镇实行了一项经济改革试验，而现在的任务是对改革的绩效进行评价。假设横向比较的结果是，杭嘉湖地区在改革后的绩效高于没有进行改革的浙江非杭嘉湖地区的绩效，那么我们能否认为这就是改革取得成功的证据呢？答案是不确定的，其理由是：杭嘉湖地区与非杭嘉湖地区若在改革之前就存在绩效差异，则改革后两个地区的绩效差异很可能继承了改革之前的绩效差异。因此，仅仅对改革后的绩效进行横向比较，无法准确评估杭嘉湖地区改革的净效应。

现在进行纵向比较。如果杭嘉湖地区改革前后的绩效出现非常明显的变化，那么我们能否认为这就是改革取得成功的证据呢？若在杭嘉湖地区改革前后，浙江非杭嘉湖地区同期也发生了相同幅度的变化，则答案很可能是否定的，理由是：既然在非杭嘉湖地区没有实行改革，那么这些地区发生的同等变化就应该与改革无关。我们可以认为，杭嘉湖地区与非杭嘉湖地区发生的同等变化是源于全国宏观经济形势与浙江整体经济形势的变化。

若在杭嘉湖地区改革前后，浙江非杭嘉湖地区同期发生了较小的变化，则对上述问题的回答就是肯定的。当然，在进行纵向比较时，我们必须施加共同趋势假定，即：如果杭嘉湖地区未实行改革试验，那么也会发生与非杭嘉湖地区相同的较小变化。可以认为，浙江非杭嘉湖地区发生的较小变化是源于全国宏观经济形势与浙江整体经济形势的变化，而杭嘉湖地区之所以有较大变化，是因为还存在额外的改革绩效。

实行改革的杭嘉湖地区就是所谓的处理组，而实行的改革就是实施的处理。相应的，未实行改革的非杭嘉湖地区就是对照组。在对处理组实施处理的前后，对照组亦会发生或大或小的变化。如果在评估改革绩效即评估处理效应时，没有将处理组与对照组的变化进行同期对照，那么我们所发现的处理效应很可能存在偏差。在本文的例子中，杭嘉湖地区改革前后的绩效变化具有三个来源：全国宏观经济形势变化、浙江整体经济形势变化、改革绩效。如果没有与非杭嘉湖地区的变化进行同期对照，那么我们评估的改革绩效就混杂了全国宏观经济形势与浙江整体经济形势变化的影响，因此很可能存在较大偏差。

鉴于非杭嘉湖地区作为对照组，其绩效变化可以代表全国宏观经济形势与浙江整体经济形势变化的影响，一个简单有效的纠偏方法就是：通过对杭嘉湖地区的绩效变化与非杭嘉湖地区的绩效变化进行比较，将全国宏观经济形势与浙江整体经济形势变化的影响从杭嘉湖地区的绩效变化中一并剔除，进而获得净的处理效应，而这正是双重差分模型的基本逻辑。

建立 DID 模型首先需设立两个虚拟变量：

然后建立模型：

在这里，i 代表各乡镇，Score 代表绩效评价指标；参数a0代表改革前所有乡镇共同的初始绩效均值；a1 代表杭嘉湖地区与非杭嘉湖地区在改革前的初始绩效差异；a2 代表杭嘉湖地区与非杭嘉湖地区在改革前后共同发生的绩效变化，即共同趋势，具体是指全国宏观经济形势与浙江整体经济形势变化的影响；a3 代表在控制了初始绩效差异与共同趋势之后，杭嘉湖地区所具有的额外绩效变化，此即改革绩效。

在所有参数中，a2 与 a3 是最为关键的。为了进一步理解这两个参数的含义，接下来我们对虚拟变量赋值，有：

1）对于浙江非杭嘉湖地区（D1=0）：

改革后（D2=1）的期望绩效为：a0 +a2 ；

改革前（D2=0）的期望绩效为：a0 。

因此，浙江非杭嘉湖地区改革前后的绩效差异为：（a0 +a2）-a0 =a2。a2 就是共同的趋势，即全国宏观经济形势变化影响与浙江整体经济形势变化影响之和。

2）对于浙江杭嘉湖地区（D1=1）：

改革后（D2=1）的期望绩效为：a0 +a1 +a2 + a3 ；

改革前（D2=0）的期望绩效为：a0 +a1 。

因此，杭嘉湖地区改革前后的绩效差异为：a0 +a1 +a2 + a3）-（a0 +a1）=a2 + a3 。杭嘉湖地区的绩效变化是全国宏观经济形势变化影响、浙江整体经济形势变化影响与改革绩效这三者之和，而a2 是全国宏观经济形势变化影响与浙江整体经济形势变化影响之和。因此，a3 就是杭嘉湖地区的改革绩效。

杭嘉湖地区改革前后的绩效差异（a2 + a3）与同期非杭嘉湖地区绩效差异（a2）的差为 a3 。因此，改革绩效a3 属于差异的差异，从而这就解释了DID（Difference-In-Difference）称谓的来源。

上述虚拟变量模型能够被拓展：一方面，若杭嘉湖地区与非杭嘉湖地区在改革前的初始绩效差异可以用变量 x 来加以解释，则变量 x 可作为解释变量进入模型、进而改善模型估计的精度；另一方面，若 x 的差异还会造成共同趋势假设被违背，则需引入交互项 x·D2，以控制趋势差异的影响。

2. 三重差分模型

现在考察共同趋势假设不成立时的情况。具体来说，我们假定在杭嘉湖地区改革前后，上海发生了巨大变化，而杭嘉湖地区毗邻上海，故上海发生的巨大变化会对该地区产生外溢影响。对于浙江非杭嘉湖地区，由于距离上海较远，我们假定这一外溢效应不存在。因此，即使杭嘉湖地区没有进行改革试验，上海的外溢影响也会使得杭嘉湖地区与浙江非杭嘉湖地区具有不同的绩效变化，从而导致共同趋势假设被违背。

那么，是否可基于拓展的 DID 模型来控制外溢效应所造成的趋势差异呢？我们或许会将前文中的 x 设置为一虚拟变量，其中取值为 1 代表距离上海较近，取值为 0 代表距离上海较远，然后将交互项 x·D2 作为解释变量模型引入模型。但不幸的是，此时 x 与 D1 完全共线，进而使得 x·D2 与 D1·D2 完全共线，结果导致 DID 模型无法被识别。

共同趋势假设因上海外溢效应的存在而被违背。为了解决此问题，我们不妨引入一个新的对照组，即与杭嘉湖地区临近的苏南地区。引入该对照组的根本目的在于识别出上海的外溢效应。假设苏南地区对照组具有如下四个性质：

1）这些地区与浙江地区一样，受到全国宏观经济形势变化的影响；

2）这些地区与浙江杭嘉湖地区一样，因毗邻上海而受其外溢影响；

3）这些地区不属于浙江，不受浙江整体经济形势变化的影响；

4）这些地区没有实行任何改革，不受改革的影响。

那么，基于上述性质可以推论：在杭嘉湖地区改革前后，苏南地区的同期绩效变化是全国宏观经济形势变化影响与上海外溢影响之和。我们还知道，浙江非杭嘉湖地区的同期绩效变化是全国宏观经济形势变化影响与浙江整体经济形势变化影响之和；浙江杭嘉湖地区的同期绩效变化是全国宏观经济形势变化影响、浙江整体经济形势变化影响、上海外溢影响与改革绩效之和。

综合利用上述三类信息，可以同时识别出全国宏观经济形势变化影响、浙江整体经济形势变化影响、上海外溢影响与改革绩效。同时我们还注意到：通过对杭嘉湖地区改革前后的绩效变化与同期浙江非杭嘉湖地区的绩效变化进行比较，我们可以识别出上海外溢影响与改革绩效之和。若在此基础上，进一步剔除上海的外溢影响，则可获得改革绩效，而这正是三重差分模型的基本逻辑。

建立 DDD 模型首先需设立三个虚拟变量：

浙江地区非浙江地区

在这里，参数 a0 代表改革前所有乡镇共同的初始绩效均值；a1 代表浙江地区与非浙江地区在改革前的初始绩效差异；a2 代表所有地区在改革前后共同发生的绩效变化，即共同趋势，具体是指全国宏观经济形势变化的影响；a3 代表临近上海地区与非临近上海地区在改革前的初始绩效差异；a4 代表浙江整体经济形势变化的影响；a 5 代表浙江杭嘉湖地区既属于浙江又临近上海这一独特区位特征造成的初始绩效差异；a6 代表上海的外溢效应；代表在控制了由各种原因造成的初始绩效差异、全国宏观经济形势变化的影响、浙江整体经济形势变化的影响、上海的外溢效应之后，杭嘉湖地区所具有的额外绩效变化，此即改革绩效。

在所有参数中，a2、a4、a6、a7接下来我们对虚拟变量赋值，有：

1）对于浙江非杭嘉湖地区（D1=1，D3=0）：

改革后（D2=1）的期望绩效：a0 +a1 +a2 +a4

改革前（D2=0）的期望绩效：a0 +a1

因此，浙江非杭嘉湖地区改革前后的绩效差异为：a2 +a4 。这一差异是全国宏观经济形势变化影响与浙江整体经济形势变化影响之和。

2）对于苏南地区（D1=0，D3=1）：

改革后（D2=1）的期望绩效：a0 + a2 +a3 +a6

改革前（D2=0）的期望绩效：a0 +a3

因此，与上海临近的苏南地区在改革前后的绩效差异为：a2 + a6

宏观经济形势变化影响与上海外溢影响之和。

3）对于浙江杭嘉湖地区（D1=D3=1）：

改革后（D2 =1）的期望绩效：a0 +a1 +a2 +a3 +a4 +a 5+a6 +a 7

改革前（D2=0）的期望绩效：a0 +a1 + a3 +a 5。

因此，浙江杭嘉湖地区改革前后的绩效差异：a2 +a4 +a6 +a 7。这一差异是全国宏观经济形势变化影响、浙江整体经济形势变化影响、上海外溢影响与改革绩效之和。

综上可知，在 DDD 模型中，虚拟变量 D2 捕捉了全国宏观经济形势变化的影响 a2；交互项 D2D1 捕捉了浙江整体经济形势变化的影响 a4 ；交互项 D2D3 捕捉了上海的外溢影响a6；交互项 D1D2D3 捕捉了改革绩效a 7。为了进一步验证此结论，我们来考察浙江杭嘉湖地区改革前后的绩效差异与同期浙江非杭嘉湖地区的绩效差异这两者的差：（a2 +a4 +a6 +a 7）-（a2 +a4 ）=a6 +a 7

在前文我们曾经提及，两者之差应该等于上海外溢影响与改革绩效之和。在此基础上，若再进一步剔除上海外溢影响，则可获得改革绩效。显然，当 a6 与a 7分别对应上海外溢影响与改革绩效时，情况确实如此。

3. 结语

在自然实验中，评估政策处理效应的理想方法是：对处理组和对照组之间除处理以外的其他影响因素进行匹配，从而使得两个组在其他方面具有可比性。但由于研究对象通常已经给定，一般无法通过匹配来消除组间的异质性，进而导致组间缺乏可比性（叶芳和王燕，2013）。针对以上难点，DID 与 DDD 模型通过将处理效应构造为关键的估计量，并同时控制其他变量的影响，来获得对处理效应的无偏估计。两种模型思路清晰、操作简单，是对项目或者公共政策的实施效果进行科学评估的有效手段。

参考文献

Ashenfelter, O., Card, D., 1985, Using the longitudinal structure of earnings to estimate the effect of training programs, Review of Economics and Statistics 67, 648-660.

叶芳、王燕，2013，双重差分模型介绍及其应用，《中国卫生统计》，第 2 期，131-134 页。

source: 姚耀军，双重差分与三重差分模型：一个简明介绍, 经济资料译丛。

作者简介

姚耀军，男，湖北利川人，1976年1月生，浙江大学管理学博士，浙江工商大学金融学院教授，浙江省首期之江青年社科学者行动计划入选人，浙江省“151人才工程”第三层次培养人员，杭州市“十三五”哲学社会科学应用经济学学科组评审专家、长期从事金融发展理论与实证研究，在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术刊物上发表论文多篇，部分成果被《新华文摘》《高等学校文科学术文摘》《人大复印资料（金融与保险）》《人大复印资料（农业经济研究）》全文转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等省部级纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》《金融论坛》《浙江学刊》《浙江社会科学》《农业经济问题》等CSSCI学术期刊的审稿专家。

往期推荐

特别推荐 | 专利引用数据，可以用来做哪些研究？

资源推荐 | 徐现祥教授团队 IRE 公开数据：官员交流、方言指数等

数据呈现 | Stata+R+Python：一文帮你解决Paper、PPT中的数据可视化问题

工具技巧 | 用Python3处理数据：“import”可以这样自由地调度函数？（内附代码）

特别推荐 | 从股权投资视角看，山东省经济怎么了？

数据Seminar

这里是经济学与大数据的交叉路口

作者：姚耀军